热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

观点|朱靖波:辅助翻译技术需「以人为本」

观点|朱靖波:辅助翻译技术需「以人为本」2020-04-2000:11:50编者按:朱靖波教授是小牛翻译创始人、东北大学计算机学院教授,为

观点 | 朱靖波:辅助翻译技术需「以人为本」

 

2020-04-20 00:11:50

 

观点 | 朱靖波:辅助翻译技术需「以人为本」

 

编者按:朱靖波教授是小牛翻译创始人、东北大学计算机学院教授,为国内外著名的机器翻译学者。在本文中,朱靖波教授反思了当前机器翻译技术所带来的“译后编辑”模式(即人工翻译过程变成纠错校对后编辑过程)的不足之处,并提出机器翻译研究应尝试开发“以人为本”的辅助翻译技术。

 

当前,机器翻译技术大多是从技术本身出发,考虑的视角一般是普通人,但却忽略了对机器翻译有较强需求的人工翻译人员的需求,导致译员在借助机器翻译进行译后编辑过程中,存在一系列矛盾之处。“以人为本”的辅助翻译技术,即从译员的角度考虑他们真正需要哪些帮助。这种观点是一种研发视角的思想变革。

 

作者 | 朱靖波编辑 | 贾 伟

 

自从上个世纪四十年代计算机诞生之时,机器翻译就成为大家首先想到的计算机应用之一,帮助解决人工翻译代价高、效率低的问题。机器翻译技术经过几十年的发展,翻译能力越来越强,从基于规则的方法、统计机器翻译技术到现在主流的神经机器翻译技术,对人工翻译的“降本提效”方面帮助越来越大。前一段时间甚至引发机器翻译代替人工翻译的争论,经过这两年的讨论,大家各自心里都有自己的评判,至少从原先的对立性观点,慢慢转变成为共存性观点。我写本小文的目的不是为了讨论这个问题,而是想分享一下我对机器翻译如何帮助人工翻译的一些想法。

 

利用机器翻译帮助人工翻译,通常称之为辅助翻译技术(CAT),也可以叫作机助人译。也有人在研究人助机译技术,这个不是本文讨论的重点,但我觉得两者可以有机融合,相互促进,共同受益,也是一个有趣的话题。

 

回到传统辅助翻译技术话题,暂时抛开不讨论翻译记忆技术(Translation Memory),基本思想是保留之前翻译好的数据,采用检索的技术,避免重复翻译的工作,对于经常翻译特定任务的人工翻译来说,帮助是挺大的,比如翻译汽车手册,不同版本的手册重复度可能达到60%以上,可以大大降低人工翻译代价。翻译记忆的技术充分发挥了计算机的存储检索优势,最大的问题就是检索匹配过程比较严格,翻译记忆库的覆盖度大小决定了使用效果,特别是初期还没有大规模的翻译记忆库的时候。

 

目前很自然想到的机器翻译辅助人工翻译的应用模式是译后编辑,基本方法非常简单,人工对机器翻译结果进行纠错校对和后编辑。从理论上来说,如果机器翻译输出的译文质量高,可以大大降低人工翻译后编辑的代价。换句话说,对人工翻译的帮助效果完全依赖于机器翻译的译文质量好坏。从实际应用来看,在很多特定领域的翻译任务中,机器翻译的译文质量没有达到人工译员的期望,因为很多时候机器翻译系统的构建是通过通用领域双语数据构建的,当然基于特定领域的双语数据构建的机器翻译系统,译文翻译品质有可能提升10%甚至更高,这样的话,对人工翻译的帮助会更大。

 

机器翻译的表现有点不同于人工翻译,比如在翻译一篇文章的时候,经常会出现有些句子翻译很好,有些句子翻译质量不好。当人工翻译看到一篇混合翻译质量好与不好的译文,也会大大降低人工译员对机器翻译的好感。所以从应用角度来看,如何对机器翻译译文质量自动评价,比如用不同颜色标注不同质量的译文句子,人工译员可以选择高质量译文句子进行后编辑,忽略质量不好的译文句子,也是一种可以考虑的选择。

 

译后编辑工作模式的另一个问题是改变了人工译员的翻译习惯,将人工翻译过程变成纠错校对后编辑过程。严格上来说,这是一个弊端,对于不同年龄的译员来说,接受度可能是不一样的,也许年轻的译员接受度会好一些,对于资深译员来说,接受度会差很多。另外还有一点,机器翻译的译文就算正确,由于翻译是一个具有艺术性的工作,每个译员也许拥有不同的翻译风格,涉及到用词和句子结构选择,因为一个句子实际上会存在很多种不同的正确翻译结果,所以有信达雅三个层次的翻译水平。特别是针对一些高水平翻译来说,不是简单译文能够准确表达原文意思就可以的,比如诗歌翻译需要讲究境界。我猜想高水平译员对于翻译也有不同的态度,对于译文的质量要求也不同,所以完全改变他们的翻译习惯,缺乏参与性,只是简单纠错校对工作,也会让他们大大降低使用机器翻译的兴趣。

 

机器翻译还面临一个更大的实际问题,因为机器翻译系统都是事先训练好的,目前缺乏非常有效的强大反馈学习能力,比如译员修改了机器翻译译文错误,下次翻译的时候,机器翻译还会犯同样的错误,当然可以引入添加用户术语词典来优化机器翻译品质,但这个能力非常有限,主要能力只能体现在术语翻译本身,对于句子结构翻译错误、省略翻译错误、重复翻译和漏译等问题无效。所以如何让机器翻译能够自动学习译员的纠错信息来优化翻译品质,这个一个非常值得研究的课题。

 

前面提到不同人工译员的译文风格可能会有所不同,这就导致要求所有译员基于同一种译文风格(同一套机器翻译的译文风格)进行修改后编辑,有时候也是非常痛苦的事情。曾有人提出一个问题,机器翻译能否通过自学习机制,让自动翻译结果的译文风格慢慢吻合使用者(译员)的译文风格呢?这个也是非常有趣的话题,也许值得进一步研究。

 

除了译后编辑工作模式外,机器翻译还有另外一种方法来帮助人工翻译,我们称之为交互式机器翻译。主要动机是希望尽量不改变人工翻译习惯来使用机器翻译服务。举个简单例子,人工翻译一个长句子的时候,比如从左到右翻译,当人工翻译一部分片段的时候,将人工翻译的(部分)译文作为约束条件作为输入,要求机器翻译结果保持人工翻译结果前提下,给出其它未翻译部分的译文。当然交互式机器翻译的实现方法可能还有很多,基本思想就是充分尊重人工翻译结果的前提下,尽可能提供机器翻译帮助。从理论上来说是非常有趣的,但其中涉及到操作模式的用户体验问题,再加上每个人工翻译过程是否严格遵循从左到右翻译等等,如何设计一个良好的交互式机器翻译用户体验,好像不是非常容易。

 

直觉上来说,译后编辑工作模式可以作为交互式机器翻译的特例,相对来说,一种具有良好用户体验的交互式工作模式容易被译员所接受。其实对于译员来说,翻译水平也有高低,对于辅助翻译工具的要求也有不同,简单打个比方,就算机器翻译给出一个译文,如何判断这个译文质量好话,也是一个挑战。如果译员认为机器翻译译文质量好,也许可以采纳,否则就拒绝,前提是他能够准确判断质量好坏。另外对于译员来说,有时候需要更多的翻译辅助能力,比如查找一些更好的单词译文、短语译文和译文结构选择,也许希望推荐一个高质量的例句等等,总之,除了机器翻译技术本身,交互式机器翻译的关键在于如何设计一个用户体验良好的交互模式。

 

其实如何评价机器翻译对人工翻译的作用,这个也是不太容易回答的问题。是不是能够提供质量好的译文,就说明有帮助呢?好像也不一定。两个译员可能对机器翻译的辅助翻译能力也有不同的期望和需求,这一点不能简单从机器翻译技术好坏角度来分析,甚至有可能因人而异,这个就不容易讨论清楚了。总之绝对没有那么简单的说,机器翻译品质提高了,对人工翻译的帮助就更大了。这个观点好像是对的,也好像不对,感觉有点怪怪的。

 

有时候我就想到每天回家陪孩子学习。每个孩子的学习能力和基础是不一样的。我们可能将小孩找补习班,假定补习班老师水平是没有问题的,如果简单灌鸭式或者不因人而异,补习的效果不太容易达到预期的效果。从这个角度来说,我有个想法,是否存在一种“以人为本”的辅助翻译技术?机器翻译能够帮助人工翻译,这一点大家都不会有太多疑问,关键是如何帮助,如何实现更好的辅助翻译过程?

 

目前我们研究译后编辑和交互式工作模式,大多时候都是从技术本身出发考虑更多,我们也许应该多问问译员,他们需要哪些帮助,体现以人为本的辅助翻译能力。举个例子,有些译员在翻译一篇文章的时候,如果事先提供一篇机器翻译译文,先阅读一下,快速了解原文的内容,就算后续没有采用译后编辑和交互式机器翻译模式,也可能会提高翻译效率,降低翻译代价,这个也是可能的。毕竟人的精力是有限的,连续工作一天的人工翻译工作,也会非常疲劳,有了机器翻译译文作为参考,也许可以降低工作强度,减少疲劳。

 

问题是如何体现“以人为本”呢?机器翻译结果作为参考译文,还是作为初稿译文,还是作为候选译文,提供给译员呢?还是说机器翻译作为一个辅助工具,译员需要的时候可以激活使用,也可以不激活。上面提到的,也许译员有些时候需要查单词帮助,有些时候需要查相似句子译文作参考。如果不是为了快速翻译赚钱目的,作为一个职业译员来说,肯定不愿意简单充当一个帮助别人修改译文的角色,这个别人在这里就是机器翻译。也许人工译员对机器翻译结果还有一个信任度的问题。

 

目前从事人工翻译的译员也许不止几百万乃至几千万,所需要翻译的资料是海量的,人工翻译的代价比较高,降低成本提高效率,肯定是非常有价值的。但最大的问题是机器翻译译文无法保证完全正确,只有通过人工译员校对才有可能。所以如何以人为本辅助翻译,还是机助人译,如何让人工译员能够更好受益于机器翻译,还存在大量挑战性问题等待深入研究。一旦取得新的突破,理论价值和应用价值值得大家期待!

 

 

朱靖波教授:

观点 | 朱靖波:辅助翻译技术需「以人为本」

朱靖波博士,小牛翻译创始人、东北大学计算机学院教授、博士生导师、辽宁省语言智能技术创新中心主任、讯飞AI大学首批特聘教授、中国中文信息学会常务理事。曾入选教育部新世纪优秀人才计划和辽宁省百人层次人才计划。1992年开始从事语言分析和机器翻译理论研究工作,发表了200多篇研究论文和一本清华大学出版的专著《自然语言理解》。

曾在香港城市大学和美国南加州大学USC/ISI做过访问学者,师从前国际计算语言学学会ACL主席、前国际机器翻译学会主席、Google翻译创始人Franz Joseph Och的博士后导师Prof. Eduard Hovy。主持研制的机器翻译开源系统NiuTrans,免费共享给全球70多个国家3000多个研究机构,2016年荣获国内自然语言处理领域最高科技奖—钱伟长中文信息处理科学技术一等奖。拥有20多项国内和美国发明专利,研究成果多次获得辽宁省科学技术一等和二等奖。主持研制的小牛翻译支持近200种语言互译能力,全球唯一覆盖一带一路和联合国所有会员国官方语言的机器翻译系统,为科大讯飞、金山、小米、华为、国家知识产权局等上百家企事业单位提供机器翻译技术支持与服务。


推荐阅读
  • 本文详细解析了 Android 系统启动过程中的核心文件 `init.c`,探讨了其在系统初始化阶段的关键作用。通过对 `init.c` 的源代码进行深入分析,揭示了其如何管理进程、解析配置文件以及执行系统启动脚本。此外,文章还介绍了 `init` 进程的生命周期及其与内核的交互方式,为开发者提供了深入了解 Android 启动机制的宝贵资料。 ... [详细]
  • 题目解析给定 n 个人和 n 种书籍,每个人都有一个包含自己喜好的书籍列表。目标是计算出满足以下条件的分配方案数量:1. 每个人都必须获得他们喜欢的书籍;2. 每本书只能分配给一个人。通过使用深度优先搜索算法,可以系统地探索所有可能的分配组合,确保每个分配方案都符合上述条件。该方法能够有效地处理这类组合优化问题,找到所有可行的解。 ... [详细]
  • 独家解析:深度学习泛化理论的破解之道与应用前景
    本文深入探讨了深度学习泛化理论的关键问题,通过分析现有研究和实践经验,揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素,并提出了改进模型泛化性能的有效策略。此外,还展望了这些理论在实际应用中的广阔前景,为未来的研究和开发提供了宝贵的参考。 ... [详细]
  • 使用 ListView 浏览安卓系统中的回收站文件 ... [详细]
  • Python 伦理黑客技术:深入探讨后门攻击(第三部分)
    在《Python 伦理黑客技术:深入探讨后门攻击(第三部分)》中,作者详细分析了后门攻击中的Socket问题。由于TCP协议基于流,难以确定消息批次的结束点,这给后门攻击的实现带来了挑战。为了解决这一问题,文章提出了一系列有效的技术方案,包括使用特定的分隔符和长度前缀,以确保数据包的准确传输和解析。这些方法不仅提高了攻击的隐蔽性和可靠性,还为安全研究人员提供了宝贵的参考。 ... [详细]
  • V8不仅是一款著名的八缸发动机,广泛应用于道奇Charger、宾利Continental GT和BossHoss摩托车中。自2008年以来,作为Chromium项目的一部分,V8 JavaScript引擎在性能优化和技术创新方面取得了显著进展。该引擎通过先进的编译技术和高效的垃圾回收机制,显著提升了JavaScript的执行效率,为现代Web应用提供了强大的支持。持续的优化和创新使得V8在处理复杂计算和大规模数据时表现更加出色,成为众多开发者和企业的首选。 ... [详细]
  • C++ 异步编程中获取线程执行结果的方法与技巧及其在前端开发中的应用探讨
    本文探讨了C++异步编程中获取线程执行结果的方法与技巧,并深入分析了这些技术在前端开发中的应用。通过对比不同的异步编程模型,本文详细介绍了如何高效地处理多线程任务,确保程序的稳定性和性能。同时,文章还结合实际案例,展示了这些方法在前端异步编程中的具体实现和优化策略。 ... [详细]
  • 卓盟科技:动态资源加载技术的兼容性优化与升级 | Android 开发者案例分享
    随着游戏内容日益复杂,资源加载过程已不仅仅是简单的进度显示,而是连接玩家与开发者的桥梁。玩家对快速加载的需求越来越高,这意味着开发者需要不断优化和提升动态资源加载技术的兼容性和性能。卓盟科技通过一系列的技术创新,不仅提高了加载速度,还确保了不同设备和系统的兼容性,为用户提供更加流畅的游戏体验。 ... [详细]
  • 在 `UITableViewController` 中采用简洁的平面样式布局时,可以通过优化代码实现单元格扩展至屏幕边缘的效果,同时确保节标题以分组样式呈现,从而提升用户体验和界面美观度。通过这种方式,可以更好地组织和展示列表内容,使其更加清晰和有序。 ... [详细]
  • 在Linux系统中,网络配置是至关重要的任务之一。本文详细解析了Firewalld和Netfilter机制,并探讨了iptables的应用。通过使用`ip addr show`命令来查看网卡IP地址(需要安装`iproute`包),当网卡未分配IP地址或处于关闭状态时,可以通过`ip link set`命令进行配置和激活。此外,文章还介绍了如何利用Firewalld和iptables实现网络流量控制和安全策略管理,为系统管理员提供了实用的操作指南。 ... [详细]
  • 使用 Firefox Developer Edition 70.0 数日后,体验令人满意 ... [详细]
  • 题目要求维护一个数列,并支持两种操作:一是查询操作,语法为QL,用于查询数列末尾L个数中的最大值;二是更新操作,用于修改数列中的某个元素。本文通过ST表(Sparse Table)优化查询效率,确保在O(1)时间内完成查询,同时保持较低的预处理时间复杂度。 ... [详细]
  • POJ 2482 星空中的星星:利用线段树与扫描线算法解决
    在《POJ 2482 星空中的星星》问题中,通过运用线段树和扫描线算法,可以高效地解决星星在窗口内的计数问题。该方法不仅能够快速处理大规模数据,还能确保时间复杂度的最优性,适用于各种复杂的星空模拟场景。 ... [详细]
  • 通过使用 `pandas` 库中的 `scatter_matrix` 函数,可以有效地绘制出多个特征之间的两两关系。该函数不仅能够生成散点图矩阵,还能通过参数如 `frame`、`alpha`、`c`、`figsize` 和 `ax` 等进行自定义设置,以满足不同的可视化需求。此外,`diagonal` 参数允许用户选择对角线上的图表类型,例如直方图或密度图,从而提供更多的数据洞察。 ... [详细]
  • 点互信息在自然语言处理中的应用与优化
    点互信息(Pointwise Mutual Information, PMI)是一种用于评估两个事件之间关联强度的统计量,在自然语言处理领域具有广泛应用。本文探讨了 PMI 在词共现分析、语义关系提取和情感分析等任务中的具体应用,并提出了几种优化方法,以提高其在大规模数据集上的计算效率和准确性。通过实验验证,这些优化策略显著提升了模型的性能。 ... [详细]
author-avatar
与幸福约定2502895163
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有